Jornais, revistas, noticiários da TV estão repletos de informações obtidas através de pesquisas de opinião, pesquisas médicas, estudos econômicos, estudos ambientais, estatísticas sobre uma pandemia.
Números e conclusões tiradas a partir deles são cada vez mais comuns no dia-a-dia.
No meio de tantos dados e informações, o que levar em conta e o que descartar?
Estamos na era da informação e a Estatística trabalha no uso da informação para tomada de decisão.
Na era da internet e do “Big Data”, entender Estatística é essencial.
No livro Mankind in the Making, de 1903, H.G. Wells escreveu:
“… e não estamos muito longe do tempo em que se entenderá que, para exercermos a cidadania de maneira eficiente, será tão necessário saber calcular e pensar em médias, máximos e mínimos, quanto é agora necessário saber ler e escrever.”
A Estatística é um conjunto de técnicas que permite, de forma sistemática, organizar, descrever, analisar e interpretar dados oriundos de estudos ou experimentos, realizados em qualquer área do conhecimento.
Estatística é a arte de aprender através de dados.
Três aspectos principais da estatística:
Os tópicos de estudo de um certo pesquisador são tão diversos quanto as perguntas de interesse.
Muitas vezes esses estudos podem ser realizados com técnicas simples de amostragem, análise de dados e conceitos fundamentais de inferência estatística.
Com isso, a Estatística pode trabalhar em parceria com qualquer área do conhecimento, planejando experimentos, auxiliando na coleta de amostras representativas, resumindo e analisando seus dados, tirando conclusões a partir de experimentos.
Problema comum em medicina: como avaliar a eficácia de um procedimento médico?
Estudo: stents são eficazes no tratamento de pacientes com risco de infarto?
Stents são usados para a recuperação de pacientes que já sofreram infarto.
Os pesquisadores do estudo investigaram se havia benefícios também para pacientes com risco de infarto.
Pergunta de interesse: O uso de stent reduz o risco de infarto?
Estudo: Os pesquisadores coletaram dados de 451 pacientes com risco de infarto que se voluntariaram para o estudo.
Cada paciente foi alocado aleatoriamente em um dos grupos:
Cada paciente foi avaliado em duas ocasiões: primeiros 30 dias e após 1 ano.
Avaliar cada paciente individualmente desta planilha de dados é eficaz?
Como poderíamos resumir?
Veja a tabela ao lado com os resultados.
Dentre os 224 pacientes do grupo tratamento:
Qual a proporção de pacientes do grupo tratamento que sofreram infarto durante o primeiro ano?
\[\frac{45}{224} = 0.2 = 20\%\]
Podemos calcular estatísticas sumárias a partir da tabela.
Estatística Sumária: número obtido a partir de informações dos dados coletados para resumí-los.
Proporção de pacientes do grupo tratamento que sofreram infarto: \(\displaystyle \frac{45}{224} = 0.2 = 20\%\)
Proporção de pacientes do grupo controle que sofreram infarto: \(\displaystyle \frac{28}{227} = 0.12 = 12\%\)
No grupo tratamento, temos 8% a mais de pacientes que sofreram infarto.
Relembrando a pergunta de interesse.
Pergunta de interesse: O uso de stent reduz o risco de infarto?
O resultado observado está de acordo com a expectativa dos pesquisadores?
8% é uma diferença considerável?
Uma diferença de 8% poderia acontecer ao acaso, mesmo que os dois tratamentos na verdade oferecessem o mesmo risco de infarto?
Utilizando metodologia estatística, os pesquisadores chegaram à conclusão de que stents não servem para previnir novos infartos.
Razão médica: o stent só resolve o fluxo sanguíneo naquela artéria específica lesionada, mas o paciente continua sendo de alto risco para infarto pois a doença está disseminada.
Não podemos generalizar os resultados do estudo para todo tipo de paciente e todo tipo de stent.
Análise descritiva se refere a métodos para resumir e descrever os dados.
É o primeiro passo antes de qualquer análise estatística!
Dados aqui refere-se à informação contida na amostra, ou seja, a que foi coletada de um experimento, uma pesquisa, um registro histórico, etc.
Resumo dos dados pode ser feito por meio de:
A técnica adequada depende do tipo de variável.
É mais simples olharmos gráficos ou 35.723.254 questionários?
Suponha que extraímos informações de 50 emails recebidos e armazemos esses dados numa tabela. Esse é um conjunto de dados.
Primeiras linhas do conjunto de dados:
| spam | characters | lineBreaks | format | number |
|---|---|---|---|---|
| No | 21705 | 551 | 1 | small |
| No | 7011 | 183 | 1 | big |
| Yes | 631 | 28 | 0 | none |
| No | 2454 | 61 | 0 | small |
Cada linha representa um email recebido.
Colunas:
spam: Yes se spam e No caso contrário.
characters: número de caracteres no email.
lineBreaks: número de quebras de linha no email.
format: 1 se formato é HTML, 0 caso contrário.
number: indica se o email não continha nenhum número (none), um número pequeno (small) ou um número grande (big).
Para que possamos resumir os dados, é importante primeiramente entender como eles são organizados e também os diversos tipos de cada variável.
Variável é uma condição ou característica de um elemento de estudo. Pode assumir valores diferentes em diferentes elementos.
Tipos de Variáveis
Exemplos: peso, altura, curso.
Veja que para cada pessoa, os valores não necessariamente são os mesmos.
Suponha que nós aplicamos um questionário entre os alunos de ME414 e coletamos várias informações sobre vocês.
Cada pergunta se refere a uma variável, que pode ter valores diferentes para cada um de vocês.
Dentre outras coisas, perguntamos sobre as seguintes variáveis:
Qual o tipo de cada variável?
A análise descritiva univariada consiste basicamente em, para cada uma das variáveis individualmente:
A partir destes resultados pode-se montar um resumo geral dos dados.
Na aula de hoje, falaremos sobre tabelas e gráficos apropriados para cada tipo de variável.
SleepStudyPara ilustrar as diferentes técnicas usadas em análise descritiva, vamos utilizar o conjunto de dados SleepStudy disponível no pacote Lock5Data do R.
Esses dados referem-se a um estudo de padrões de sono para estudantes universitários.
Os dados foram obtidos de uma amostra de 253 alunos universitários que fizeram testes de habilidades para medir função cognitiva.
Todos os participantes completaram uma pesquisa, na qual responderam questões sobre atitudes e hábitos. Eles também mantiveram um diário para registrar o tempo e a qualidade do sono durante um período de duas semanas.
Nesse conjunto de dados encontramos todos os tipos de variáveis.
## [1] "Gender" "ClassYear" "LarkOwl" "NumEarlyClass" ## [5] "EarlyClass" "GPA" "ClassesMissed" "CognitionZscore" ## [9] "PoorSleepQuality" "DepressionScore" "AnxietyScore" "StressScore" ## [13] "DepressionStatus" "AnxietyStatus" "Stress" "DASScore" ## [17] "Happiness" "AlcoholUse" "Drinks" "WeekdayBed" ## [21] "WeekdayRise" "WeekdaySleep" "WeekendBed" "WeekendRise" ## [25] "WeekendSleep" "AverageSleep" "AllNighter"
SleepStudyIremos selecionar algumas variáveis de cada tipo:
Gênero (Gender): categórica nominal
Autodeclaração de uso de álcool (AlcoholUse) e nível de ansiedade (AnxietyStatus): categórica ordinal
Número de aulas na semana antes das 9am (NumEarlyClass) e número de bebidas alcoólicas por semana (Drinks): quantitativa discreta
Média de horas de sono em todos os dias (AverageSleep) e score de cognição (CognitionZscore): quantitativa contínua
A variável gênero (Gender) é do tipo categórica (qualitativa) nominal.
Para resumir esse tipo de variável começamos por uma tabela de frequências e também podemos representar as frequências num gráfico de barras ou de pizza (setores).
Tabela de frequência: listas todos os valores possíveis e contar quantas vezes cada um aparece.
| Gênero | Frequência | Freq. Relativa |
|---|---|---|
| female | 151 | 0.597 |
| male | 102 | 0.403 |
Qual ator atuou no maior número de episódios da série Doctor Who?
Tabela de frequências e frequências relativas
| Ator | Frequência | Freq. Relativa |
|---|---|---|
| William Hartnell | 136 | 0.157 |
| Patrick Troughton | 127 | 0.147 |
| Jon Pertwee | 129 | 0.149 |
| Tom Baker | 173 | 0.200 |
| Peter Davison | 70 | 0.081 |
| Colin Baker | 35 | 0.041 |
| Sylvester McCoy | 42 | 0.049 |
| Christopher Ecclestone | 20 | 0.023 |
| David Tennant | 52 | 0.060 |
| Matt Smith | 51 | 0.059 |
| Peter Capaldi | 29 | 0.034 |
Gráfico de barras
técnica visual para resumir dados categóricos.
É uma representação gráfica da tabela de frequências absolutas ou frequências relativas.
Veja o gráfico de barras representando a tabela de frequências absolutas.
Veja o gráfico de barras representando a tabela de frequências relativas.
A variável AnxietyStatus é uma variável categórica (qualitativa) ordinal, ou seja, são categorias cuja ordem é relevante.
Assim como na variável categórica nominal, podemos utilizar as frequências absolutas e relativas para resumir os dados. Visualmente, representamos essa variável com um gráfico de barras.
| Anxiety Status | Frequência | Freq. Relativa |
|---|---|---|
| normal | 181 | 0.715 |
| moderate | 56 | 0.221 |
| severe | 16 | 0.063 |
Quantitativa Discreta: conjunto enumerável e finito de valores possíveis.
Exemplo: Nos dados SleepStudy, a variável NumEarlyClass representa o número de aulas por semana antes das 9am, sendo então quantitativa discreta.
Nesse caso, assim como nas variáveis categóricas, podemos apresentar uma tabela de frequências absolutas e/ou relativas.
| Número de Aulas | Frequência | Freq. Relativa |
|---|---|---|
| 0 | 85 | 0.336 |
| 1 | 14 | 0.055 |
| 2 | 88 | 0.348 |
| 3 | 35 | 0.138 |
| 4 | 11 | 0.043 |
| 5 | 20 | 0.079 |
As frequências absolutas ou relativas podem ser apresentadas num gráfico de barras.
É comum esses universitários terem aulas antes das 9h da manhã?
Exemplo: Nos dados SleepStudy, outra variável quantitativa discreta é Drinks (número de bebidas alcoólicas por semana).
Poderíamos também aqui apresentar uma tabela de frequências absolutas e/ou relativas.
## ## 0 1 2 3 4 5 6 7 8 9 10 12 13 14 15 18 20 24 ## 33 9 16 30 18 31 23 22 14 11 26 9 3 1 3 1 2 1
Porém, nesse caso, veja que são muitos valores possíveis e apresentá-los numa tabela não é a melhor alternativa.
Esse gráfico pode ser feito também usando frequências relativas.
Quantitativa Contínua: os valores possíveis estão dentro de um intervalo dos números reais.
Faz sentido estudar a distribuição de frequências de uma variável contínua?
No exemplo do SleepStudy, a variável AverageSleep representa a média de horas de sono para todos os dias, sendo então quantitativa contínua.
Podemos listar todos os valores possíveis e contar quantas vezes cada valor ocorre? Isso seria eficiente?
Existem diferentes tipos de gráficos para esse tipo de variável, mas aqui vamos estudar dois muito usados:
Histograma é uma representação gráfica de uma variável contínua.
Pode-se dizer que é semelhante a um gráfico de frequências para variáveis discretas. Porém, aqui os dados contínuos são agrupados em classes disjuntas e o histograma representa a frequência de dados em cada classe.
Exemplo: Suponha que a variável seja a idade de um grupo de 100 pessoas.
Em vez de calcular as frequências de cada idade individualmente, calculamos as frequências por faixas etárias: (30, 35], (35, 40], …, (80, 85], (85, 90].
Assista ao vídeo da Khan Academy sobre como criar um histogram:
Passo-a-passo:
Os dados a seguir representam o QI de 32 crianças de 12 anos de idade:
114, 122, 103, 118, 99, 105, 134, 125, 117, 106, 109, 104, 111, 127, 133, 111,
117, 103, 120, 98, 100, 130, 141, 119, 128, 106, 109, 115, 113, 121, 100, 130
Dados ordenados:
98, 99, 100, 100, 103, 103, 104, 105, 106, 106, 109, 109, 111, 111, 113, 114,
115, 117, 117, 118, 119, 120, 121, 122, 125, 127, 128, 130, 130, 133, 134, 141
Intervalos:
(95, 100]: 4 \(\qquad\) (120, 125]: 3
(100, 105]: 4 \(\qquad\) (125, 130]: 4
(105, 110]: 4 \(\qquad\) (130, 135]: 2
(110, 115]: 5 \(\qquad\) (135, 140]: 0
(115, 120]: 5 \(\qquad\) (140, 145]: 1
Intervalos:
(95, 100]: 4 \(\quad\) (120, 125]: 3
(100, 105]: 4 \(\quad\) (125, 130]: 4
(105, 110]: 4 \(\quad\) (130, 135]: 2
(110, 115]: 5 \(\quad\) (135, 140]: 0
(115, 120]: 5 \(\quad\) (140, 145]: 1
Se apenas esse histograma dos QI’s fosse apresentado a você, que conclusões você tira?
Histograma são usados para estudar a distribuição de uma variável e até mesmo encontrar erros. Veja alguns exemplos de formatos de distribuição:
Vamos fazer o histograma da variável AverageSleep do SleepStudy.
Como você analisa esse gráfico?
Ramo-e-folhas: representa graficamente os dados sem perder nenhuma informação.
O gráfico de ramo-e-folhas (stem-and-leaf plot em inglês) é, basicamente, uma tabela num formato especial usada para representar dados quantitativos.
Veja um exemplo:
Cada observação (valor) é separado em duas partes: o ramo (colocado à esquerda) e as folhas (colocadas à direita).
Um professor apresenta à classe as notas do exame usando um gráfico de ramo-e-folhas.
Analisando esse gráfico, responda:
Qual o total de alunos?
Qual a menor nota?
Qual a maior nota?
Você conseguiria listar todas as notas?
Vamos voltar nos dados de QI (ordenados):
98, 99, 100, 100, 103, 103, 104, 105, 106, 106, 109, 109, 111, 111, 113, 114,
115, 117, 117, 118, 119, 120, 121, 122, 125, 127, 128, 130, 130, 133, 134, 141
Gráfico ramo-e-folhas (à esquerda) e histograma (à direita):
Qual o tipo de informação você obtém através de um gráfico de ramo-e-folhas mas não não através de um histograma?
No link http://graphics.wsj.com/infectious-diseases-and-vaccines/ temos vários gráficos mostrando muito bem o efeito de vacinas ao longo dos anos para cada estado americano, para várias doenças.
OpenIntro: seções 1.1, 1.2, 1.6, 1.7
Ross: seções 1.1, 1.2, 1.3, 1.4, 2.1, 2.2, 2.3, 2.4
Khan Academy - Creating a Histogram
Khan Academy - Stem-and-Leaf Plots
Slides produzidos pelos professores: